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摘要 : [ 目的 /意义 ] 为 识别 并 去 除非 理性 投资 者 的 网 络 评论 ,提升 评论 的 专业 程度 与 质量 ,促进 理性 投资 ， 
本 文 以 识别 股吧 中 的 用 户 是 否 属于 噪声 投资 者 为 研究 任务 ,进行 用 户 画 像 。[ 方 法 /过 程 ] 对 股吧 的 用 户 发 文 内 
容 进 行 深度 用 户 表示 学 习 ( deep user representation learning) ,结合 股吧 用 户 的 粉丝 数量 、 影 响 力 、 关 注 量 、 自 选 
股 、 吧 龄 .发 帖 量 评论 量 、 访 问 量 等 行为 特征 ,提出 一 种 行为 -内容 融合 模型 (behaviour and content combined 
model, BCCM) ,并 在 标注 数据 集 上 进行 实证 与 对 比 研 究 。[ 结果 /结论 ] 实 验 结果 显示 ,该 模型 对 噪声 投资 者 识 
别 的 Fl 值 为 79.47% , 优 于 决策 树 方法 (69. 90% ) SVM 方法 (75.61% ) KNN 方法 (73.21% ) 和 ANN 方法 
(74.83% ) 。 在 噪声 投资 者 识别 这 一 特定 用 户 画 像 研 究 任 务 中 ,通过 利用 深度 用 户 表示 学 习 引 入 文本 内 容 特 


征 ,能 够 显著 提升 用 户 画像 的 各 种 评价 指标 。 
S| 关键 词 : 用 户 画 像 
分 类 号 : TP391 
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随 着 智能 手机 与 移动 互联 网 技术 的 迅速 发 展 与 革 
新 兴 们 的 行为 呈现 明显 的 网 络 化 趋势 ,网 上 用 户 行为 
数据 以 指数 形式 增长 。 从 普通 网 页 上 的 用 户 点 击 和 浏 
JS ACE 8 ERIT 5 BUB, MA SPEI E gA 
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为 数据 呈现 多 样 性 、 实 时 性 ,动态 性 、 非 结构 化 以 及 海 
量 性 等 特征 。 如 何 合理 .科学 有 效 地 利用 这 些 海量 的 
网 上 用 户 行为 数据 ,成 为 一 个 紧迫 的 现实 问题 。 在 这 
种 情况 下 ,用 户 画 像 的 研究 开始 引起 大 数据 分 析 领 域 
相关 学 者 的 重视 。 

所 谓 用 户 画 像 ,是 根据 用 户 人 口 统计 学 信息 (de- 
mographic data) , 社交 关 系 (social network relation- 
ships) 和 行为 模式 (behavioral patterns ) 等 信息 而 总 
结 、 抽 象 和 挖掘 出 来 的 标签 化 用 户 模 型 。 用 户 画 像 
的 早期 研究 是 从 商业 角度 出 发 ,通过 用 户 的 消费 习 
惯 消费 金额 .年 龄 .性 别 等 特征 判断 用 户 的 消费 层 
次 ,从 而 进行 精准 营销 。 随 着 大 数据 技术 的 迅速 发 


展 ,用 户 画 像 研究 已 经 扩展 到 各 个 领域 。 例 如 ,通过 
音乐 平台 用 户 的 听 歌 习惯 \ 听 歌 类 型 等 行为 数据 来 
判断 该 用 户 所 喜欢 的 歌曲 类 型 (用 户 偏好 画像 ) ,从 
而 为 其 推荐 相关 的 歌曲 " ;通过 用 户 的 体重 、 体 质 、 
血压 、 血 糖 、 慢 性 疾病 等 指标 来 判断 用 户 各 项 机 能 的 
健康 与 否 (用 户 健康 画像 ) ,从 而 推荐 合理 的 膳食 |; 
利用 网 站 用 户 对 不 同 内 容 的 点 击 率 、 浏 览 时 长 等 因 
素 判断 用 户 价值 (客户 关系 画像 ) ,从 而 制定 提高 用 
户 留 存 率 的 策略 "| 。 

值得 说 明 的 是 ,目前 的 用 户 画 像 研究 较 多 地 集中 
在 利用 用 户 行为 特征 上 ,对 用 户 内 容 特 征 的 深入 研 
究 则 并 不 多 见 。 鉴 于 此 ,本 文 以 识别 股吧 中 的 用 户 
是 否 属于 噪声 投资 者 这 一 特定 用 户 画 像 任 务 作为 研 
究 目标 ,通过 对 股吧 用 户 的 发 文 内 容 进 行 深度 用 户 
表示 学 习 (deep user representation learning) ,结合 股 
吧 用 户 的 粉丝 数量 、 影 响 力 、 关 注 量 、 自 选 股 、 吧 龄 、 
发 帖 量 、 评 论 量 、 访 问 量 以 及 发 帖 长 度 等 行为 特征 ， 
进行 实证 与 对 比 研究 ,以 期 为 大 数据 环境 下 的 用 户 
画像 提供 借鉴 。 
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2 文献 回顾 


2.1 用 户 画 像 研究 

用 户 画像 研究 较 早 应 用 于 营销 领域 。 赵 喝 光 “ 通 

过 深度 访谈 的 方式 对 用 户 的 社交 媒体 使 用 动机 和 行为 

进行 综合 提炼 ,将 高 转化 率 的 社交 用 户 提 人 炼 为 5 种 类 
J 


型 ,为 针对 不 同类 型 的 高 转化 率 社交 媒体 产品 设计 E 
善 产品 的 用 户 体验 .提高 社交 媒体 营销 效果 奠定 了 基 
f. S. Yu 和 A. Gupta 等 5 利用 社交 网 站 LinkedIn 中 
的 用 户 数据 ,通过 比较 图 摘要 ( graph summarization ) 与 
二 分 图 (bipartite graph learning) 两 种 方法 来 识别 Linke- 
dm 用 户 中 的 潜在 购买 者 。M.，Trusov 等 "利用 用 户 在 
线 浏 览 数据 来 补充 用 户 缺 失信 息 , 并 利用 仿真 模拟 算 
法 验证 其 所 提出 方法 在 广告 投放 中 的 效果 。I. Ha 
等 只 利用 社交 关系 网 络 来 刻画 用 户 画 像 ,将 结果 用 于 
三 造 投 放 之 中 ,其 对 比 实验 表明 ,加 入 用 户 画 像 之 后 ， 
狸 投放 的 效果 明显 优 于 传统 广告 投放 方式 。 

产品 推荐 与 链接 预测 是 用 户 画 像 应 用 的 另 一 个 热 
点 领域 。A. M，Flkahky 等 ”尝试 利用 深度 学 习 对 用 
i f ,并 将 其 用 于 跨 领 域 的 用 户 产品 ( Windows 
Apps ,新闻 和 电影 /电视 ) 推荐 之 中 ,其 实验 结果 表明 ， 


户 建 模 ,并 将 其 应 用 于 旅游 规划 系统 ,对 用 户 进行 个 性 
化 话 游 路 线 规划 及 推荐 ,通过 以 用 户 为 中 心 的 研究 , 验 
证 鲁 模 型 的 有 效 性 。T，Bensal 等 "通过 协作 过 滤 的 
用 更 共同 评估 模式 ,结合 新 颖 的 分 层 贝 叶 斯 建 模 方法 
对 多 章 和 评论 内 容 进 行 主题 建 模 , 以 向 用 户 推荐 可 能 
感 兴趣 的 新 闻 或 博客 文章 ,实验 结果 表明 ,该 方法 能 

较 好 地 解决 推荐 中 的 冷 启 动 问题 。G. Piao 等 ”提出 
结合 知识 库 使 用 概念 对 Twitter 等 社交 网 络 平台 上 的 
用 户 进行 兴趣 建 模 ,实验 结果 表明 ,该 方法 在 Twitter 
的 链接 推荐 中 能 够 显著 提高 准确 度 .召回 率 等 各 项 评 
价 指标 。G，Piao 457 使 用 概念 频率 - 道 文档 频率 
(concept frequency -inverse document frequency, CF - 
IDF) 作为 用 户 建 模 策略 ,并 融合 了 用 户 兴趣 的 时 间 动 
态 和 语义 ,将 该 策略 应 用 于 链接 推荐 预测 ,结果 显示 ， 
该 融合 策略 优 于 单 策略 的 预测 效果 。 

在 移动 互联 网 领域 ,用 户 画 像 也 得 到 广泛 应 用 。 
章 成 志 等 "通过 收集 用 户 手 势 行为 ,例如 单 击 、 双 击 、 
滑动 . 拖 动 和 放大 /缩小 等 对 移动 平台 下 Web 阅读 系 
统 的 用 户 画 像 进行 了 研究 。 黄 文彬 等 ”在 利用 某 电 
信 运 营 提供 商 的 3 万 位 在 线 用 户 记录 数据 ,采用 频繁 


项 集 挖 气 等 方法 ,从 用 户 网 络 日 志 中 所 涵盖 的 位 移 信 
息 构 建 移动 用 户 行为 画像 。Y. X. Dong 等 '“ 利用 手 
机 互联 网 络 ( 包 括 手 机 呼叫 行为 和 短 消息 发 送行 为 ) 
对 用 户 的 年 龄 .性 别 画像 ,其 识别 准确 接近 80% 。 此 
外 ,用 户 画 像 还 在 用 户 评价 预测  、 和 人 侵 检测 、 多 媒 
体 信息 检 索 '” 等 领域 得 到 了 较为 广泛 的 应 用 。 

2.2 噪声 投资 者 识别 研究 

从 噪声 投资 者 识别 的 定义 来 看 , 它 是 用 户 画 像 技 
术 在 金融 领域 的 典型 应 用 。 较 早 提出 “噪声 投资 者 ” 
概念 的 是 A.S. Kyle ,他 将 噪音 交易 者 明确 定义 为 无 法 
获得 内 部 信息 , 非 理性 地 把 噪音 当 作 信息 进行 交易 的 
投资 者 ”。 之 后 ,J. B. D. Long 等 将 “噪音 ”概念 模型 
化 并 提出 了 具有 较 强 代表 性 的 噪声 交易 者 模型 ” ,并 
将 市 场 上 的 投资 者 分 为 理性 投资 者 和 噪声 交易 者 。C. 
M. C. Lee 等 将 投资 者 情绪 看 作 投 资 者 在 估计 未 来 投 
资 回报 时 , 除 公 司 基本 面 之 外 影响 投资 者 判断 的 部 
4^ 。 杨 楷 提 出 市 场 上 存在 两 种 投资 者 类 型 ,一 种 是 
不 受 情绪 影响 的 理性 套利 者 ,一 种 是 易 受 外 部 情绪 影 
响 的 非 理性 的 噪音 交易 者 E.M. Silva fl L. Taki- 
moto! 提出 一 种 新 的 模型 对 熟练 的 和 非 熟 练 的 噪声 投 
资 者 进行 统一 建 模 。 文 献 [25] 对 上 述 内 容 进行 了 综 
合并 指出 ,噪声 投资 者 就 是 在 做 交易 决策 时 ,总 是 通过 
经 验 判断 .过 度 自 信 、 过 度 乐 观 或 悲观 .损失 规避 等 一 
系列 心理 因素 或 认 知 偏差 来 做 出 决策 ,甚至 是 出 现 羊 
群 行为 (从 众 心理 ) 的 个 人 投资 者 。 

从 噪声 投资 者 识别 的 方法 来 看 , 主要 将 文本 信息 
作为 判断 噪声 投资 者 的 重要 依据 。 例 如 ,M. Rechent- 
hin 等 “根据 雅虎 财经 的 留言 板 信息 ( 如 发 帖 时 间 、 内 
AE BE IP 地 址 等 ) 找 出 潜在 的 噪声 投资 者 ,并 进一步 
运用 支持 向 量 机 、 朴 素 贝 叶 斯 等 多 种 机 器 学 习 算 法 探 
索 噪 声 投资 者 对 股票 走势 的 影响 ,结果 表明 加 入 噪声 
投资 者 因素 对 股票 走势 的 预测 更 为 准确 ,证 明 噪声 投 
资 者 有 一 定 影响 力 ;L.F，Acekert 等 ”利用 股吧 论坛 数 
据 将 影响 力 前 1096 的 用 户 筛 选 为 有 影响 力 的 投资 者 ， 
认为 他 们 的 发 言 会 对 其 他 投资 者 造成 影响 且 可 信赖 ; 
T.H. Nguyena 等 ”用 社会 媒体 的 情绪 预测 股价 走势 ， 
从 留言 板 的 文字 中 自动 提取 主题 和 相关 情绪 信息 ,对 
股票 预测 任务 中 情绪 分 析 的 有 效 性 进行 评估 ,结果 在 
准确 率 上 得 到 大 幅度 提升 ;S，Feuerriegel 等 ”基于 对 
金融 市 场 规则 的 认识 提出 利用 文字 新 闻 的 交易 策略 ， 
并 提出 基于 监督 和 强化 学 习 的 自动 化 决策 方法 ,将 新 
闻 数 据 一 并 纳入 投资 体系 ; 池 丽 旭 等 ”基于 扩展 卡尔 
曼 滤 波 (extended Kalman filter, EKF) 方法 ,构造 出 过 
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滤 市 场 噪声 的 投资 者 情绪 指标 ,实证 结果 表明 情绪 波 
动 是 影响 资产 定价 的 重要 主观 因素 ; 熊 伟 等 "实证 检 
验 股票 特质 波动 率 与 股票 收益 和 投资 者 情绪 的 相关 性 。 
研究 发 现 ,股票 收益 率 对 股票 特质 波动 率 的 弹性 , 随 投 
资 者 情绪 的 增加 和 噪声 投资 者 比例 的 上 升 而 增 大 。 

从 噪声 投资 者 识别 的 应 用 来 看 ,首先 ,噪声 投资 者 
影响 着 市 场 均衡 和 市 场 走势 ”” 。 例 如 , 辛 荣 等 ” 通 
过 分 析 噪 声 交 易 者 情绪 、 信 息 质量 和 市 场 进 化 均衡 状 


征 主要 来 源 于 用 户 发 帖 及 评论 中 的 文本 信息 。 我 们 将 
单个 用 户 的 所 有 发 帖 及 评论 文本 整合 在 一 起 形成 一 个 
段落 文本 ,所 有 的 段落 文本 形成 相应 的 语料库 ,利用 该 
语料库 进行 用 户 表示 学 习 。 

本 文 所 提出 的 用 户 表示 学 习 方 法 受到 词 向 量 学 习 
方法 的 启发 , 即 :利用 词 向 量 来 预测 句子 中 出 现 的 下 一 
个 单词 。 我 们 将 这 种 思路 应 用 到 用 户 表 示 学 习 中 , 建 
立 如 图 1 所 示 的 用 户 表 示 学 习 框 架 。 在 图 1 中 ,每 个 


态 的 内 生 关 系 , 发 现在 不 同 的 噪声 交易 者 情绪 和 信息 
质量 下 ,市 场 会 进化 到 与 之 相应 的 均衡 状态 ; 王 宜 峰 
等 “构建 情绪 水 平和 变化 综合 指标 ,发 现 情绪 变化 对 
市 场 收益 .市 场 风险 均 有 显著 正 向 影响 ; 绢 炙 峰 等 “ 
在 单 资产 的 两 期 定价 模型 中 ,分 类 出 关注 和 朴 忽 两 类 
换 资 者 ,在 市 场 出 清 的 均衡 状态 下 发 现 提高 信息 关注 


度 可 以 有 效 降低 资产 的 风险 溢价 ,并 提出 了 “关注 者 分 


类 候 说 " 。 其 次 ,噪声 投资 者 对 于 市 场 风险 具有 提示 作 
盾 D 例 如 , 刘 站 等 ”提出 理性 投资 者 也 可 能 是 风险 偏 
好 机 ,分 析 噪 声 交易 策略 及 理性 投资 策略 在 金融 市 场 
的 长 期 演化 机 制 ,结果 表明 在 金融 市 场 中 ,这 两 种 投资 
ORG 3 种 存在 形式 :收敛 于 噪声 交易 策略 ,收敛 于 理 
PERAN .两 者 长 期 共存 ;V，Ramiah 等 5 以 区 分 新 
者 主义 金融 和 行为 金融 为 出 发 点 ,识别 影响 市 场 走 
切 的 异常 事件 ,论证 噪声 交易 与 市 场 基本 面 之 间 的 关 
联 强 建立 模型 定量 化 噪声 交易 风险 ;本 K. Shin 和 C. 
Seamaniane 等 ”基于 固定 汇率 和 通货 膨胀 目标 两 项 
原则 研究 货币 政策 体系 与 噪声 投资 者 在 外 汇市 场 中 的 
关 逐 ,以 托 宾 税 为 实例 分 析 论证 了 在 噪声 投资 者 存在 
的 情况 下 使 用 固定 汇率 的 必要 性 ,以 及 噪声 投资 者 对 
外 汇市 场 的 影响 能 

值得 说 明 的 是 ,上 述 研究 多 数 以 评论 或 发 帖 文本 
( 即 内 容 特征 ) 为 主 来 刻画 投资 者 , 较 少 有 将 内 容 与 行 
为 特征 融合 以 进行 用 户 画 像 的 方法 。 鉴 于 此 ,本 文 尝 
试 将 内 容 与 行为 特征 融合 ,通过 对 股吧 的 用 户 发 文 内 
容 进 行 深度 用 户 表示 学 习 (deep user representation 
learning) ,结合 股吧 用 户 的 粉丝 数量 ,影响 力 、 关 注 量 、 
自选 股吧 龄 .发 帖 量 , 评 论 量 , 访 问 量 等 行为 特征 , 提 
出 一 种 行为 - 内 容 融 合 模 型 ,以 期 为 用 户 画 像 研究 提 
供 借鉴 。 


3 HU 


3.1 ZR EE FH PA 3 zs 3€ Y ( deep user representation 


learning ) 模型 


在 噪音 投资 者 识别 这 一 特定 任务 中 ,用 户 内 容 特 
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用 户 被 映射 到 矩阵 U 中 列表 示 的 唯一 向 量 , 每 个 单词 
被 映射 到 矩阵 W 中 列表 示 的 唯一 向 量 。 用 户 向 量 和 
词 向 量 被 平均 或 串联 以 预测 语 境 (context) 中 的 下 一 个 
单词 。 例 如 ,利用 用 户 向 量 u 和 “期待 “股市 "和 “每 
天 ”3 组 词 向 量 的 平均 值 来 预测 下 文 是 否 会 出 现 % 上 
涨 "一 词 ( 见 图 1)。 在 本 文 实 验 中 ,使 用 平均 作为 组 合 
向 量 的 方法 ,利用 上 述 建立 的 语 料 进 行 训练 以 下 相关 
的 向 量 和 参数 。 

(1) 用 户 向 量 与 词 向 量 的 获取 。 在 模型 启动 阶 
段 ,用 户 向 量 和 词 向 量 被 随机 初始 化 ,通过 定义 深度 学 
习 中 的 损失 函数 ( 即 量化 预测 值 与 实际 值 之 间 的 差 
距 ) 和 采用 一 定 的 优化 方法 (例如 随机 梯度 下 降 方 法 ， 
stochastic gradient descending) ,最 终 获得 用 户 向 量 和 词 
向 量 作 为 上 述 预 测 任 务 的 间接 产物 。 

(2) 模型 参数 的 获取 。 假 设 语料库 中 包含 N 个 用 
户 ,词汇 表 中 包含 M 个 单词 ,我 们 想 要 学 习 用 户 向 量 ， 
使 得 每 个 用 户 映射 到 一 个 p 维 向 量 ,每 个 词语 映射 到 
一 个 qd 维 向 量 , 则 模型 总 共有 N xp + Mxq 参数 。 当 
N 和 M 的 值 较 大 时 ,参数 的 数量 可 能 也 较 大 ,参数 更 
新 在 训练 期 间 通常 具有 稀 玻 性 。 
利用 语料库 进行 训练 后 ,我们 得 到 用 户 的 内 容 特 
征 , 即 用 户 向 量 。 值 得 说 明 的 是 ,相对 于 传统 的 特征 工 
程 方法 ,用户 向 量具 有 明显 的 优势 , 即 :用 户 向 量 从 未 
标记 数据 (unlabeled data) 中 学 习 , 因 此 可 以 适用 于 没 
有 足够 标注 数据 的 任务 。 用 户 向 量 的 第 二 个 优点 是 
在 小 的 语 境 中 考虑 到 单词 顺序 ,这 点 与 n-gram 模型 
方式 相同 ,n-gram 模型 保留 了 段落 的 大 量 信息 ,包括 
单词 顺序 。 由 于 传统 的 n-gram 模型 往往 需要 创建 一 
个 非常 高 维 的 表示 ,而 用 户 表示 学 习 模 型 能 够 创建 
一 个 相对 低 维 的 表示 ,因此 用 户 表 示 模 型 相 比 于 传 
统 的 n-gram 模型 ,具有 更 好 的 推广 性 能 。 例 如 ,可 以 
将 这 些 特 征 直接 用 于 常规 机 器 学 习 技术 ,如 人 逻辑 回 
归 ,支持 向 量 机 或 K-means。 在 本 文 研究 中 ,我 们 选 
择 K-means 算法 将 用 户 进 行 聚 类 ,并 将 聚 类 艇 分 别 标 
记 为 “0”“1”“2” 等 。 
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图 1 用 户 向 量 框 架 


3.2 行为 与 内 容 融 合 的 BCCM 模型 

通过 对 股吧 网 站 上 用 户 信息 的 候 取 , 共 得 到 8 种 
行为 特征 :粉丝 量 、 影 响 力 、 关 注 量 、 自 选 股 、 吧 龄 ,发帖 
量 . 评 论 量 ,访问 量 。 其 中 ,粉丝 量 表示 该 用 户 被 多 少 
其 他 用 户 所 关注 ;关注 量 是 该 用 户 关注 其 他 用 户 的 数 
量 5 自 选 股 代表 该 用 户 所 关注 的 股票 的 支 数 ; 吧 龄 代表 
有 情 齐 在 股吧 上 的 活跃 时 期 ;发 帖 量 是 用 户 在 股吧 各 个 
脆 壬 主题 下 所 发 布 的 总 帖 数 ;评论 量 是 用 户 对 所 有 帖 
篇 堵 发 出 的 评论 量 总 和 ;访问 量 代表 该 用 户 的 个 人 主 
页 被 访问 的 次 数 ;影响 力 是 一 个 股吧 提出 的 用 于 衡量 


用 局 影响 力 大 小 的 指标 ,用 0 -5 MERER. WEE 
述 衍 为 特征 主要 基于 以 下 考虑 :一 是 特征 具有 可 获取 
履 部 能 够 通过 的 虫 软件 以 自动 化 方式 获取 ;二 是 特征 
上 其 存 可 用 性 ,其 效果 在 相关 实证 研究 中 得 到 了 检验 。 


例 辣 , 王 凌 霄 等 "采用 关注 数量 作为 用 户 参与 程度 的 
重要 表征 ,将 其 应 用 到 问答 社区 用 户 画像 之 中 ; 林 碍 起 
等 9 采用 粉丝 量 作为 微 博 群体 划分 的 重要 依据 ,并 将 
其 认 用 到 基于 社会 认同 理论 的 微 博 群 体 用 户 画像 之 
TO 

基于 上 述 用 户 表示 学 习 模 型 以 及 用 户 行为 特征 ， 
我 们 提出 一 种 行为 - 内 容 融合 模型 (behavior and con- 
tent combined model, BCCM ) ,用 于 识别 股吧 ( http :// 
www. guba. com) 论坛 上 的 噪音 投资 者 。 该 模型 基本 步 
又 如 下 ( 见 图 2) : 

(1) 首 先 针 对 用 户 评论 及 发 帖 的 文本 信息 ,运用 
3.1 节 深 度 学 习 方法 获得 用 户 表示 , 即 用 户 向 量 (user 
embedding) ; 

(2) 利用 所 获得 的 用 户 向 量 进行 K-means 聚 类 ; 

(3 ) 将 聚 类 标签 作为 一 个 特征 加 入 到 8 个 行为 特 
征 ( 即 粉丝 量 、 影 响 力 、 关 注 量 、 自 选 股吧 龄 .发 帖 量 、 
评论 量 , 访 问 量 ) 当 中; 

(4) 将 上 述 两 类 特征 输入 逻辑 回归 分 类 模型 ,最 
终 识 别 噪音 投资 者 。 


逻辑 回归 模型 
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2 BCCM 模型 的 基本 思路 


4.1 数据 

本 文 的 数据 来 自 于 东方 财富 网 股吧 论坛 ,参考 其 
他 相关 社交 媒体 的 用 户 画 像 领域 相关 研究 ”” ,结合 
股吧 论坛 所 展示 的 信息 ,选择 自选 股 数 量 、 关 注 量 、 粉 
缘 量 影响 力 \ 吧 龄 .总 访问 量 、 发 帖 量 和 回复 量 共 8 种 
数值 型 数据 作为 本 研究 的 行为 特征 ,用 户 的 发 帖 及 评 
论 的 文本 信息 作为 内 容 特征 。 以 “中 金 岭 南 ”( 网 址 
为 :http://guba. eastmoney. com /list, 000060. html ) 为 
VLA fec; 7 272 位 用 户 相关 的 网 络 评论 共计 10 万 
条 ,以 及 每 个 用 户 对 应 的 自选 股 数量 .关注 量 等 行为 数 
据 。 其 中 ,用 户 发 表 评 论 所 涉及 到 的 时 间 跨 度 为 2008 
年 8 月 至 2017 年 3 月 。 

针对 原始 数据 ,我 们 从 7 272 位 用 户 中 随机 抽取 
2 500 位 用 户 ,并 对 其 进行 人 工 标注 。 参 与 人 工 标注 的 
为 两 名 硕士 研究 生 ,二 者 系统 地 学 习 了 金融 信息 工程 、 
证 券 投资 ,金融 学 、 宏 观 经 济 学 、 微 观 经 济 学 等 相关 课 
程 , 持 有 证 券 从 业 资格 证 ,在 金融 领域 的 噪声 投资 者 识 
别 方面 具有 一 定 的 理论 研究 基础 。 

在 标注 过 程 中 , 当 两 人 同时 将 某 人 标注 为 噪声 投 
资 者 或 理性 投资 者 , 则 纳入 我 们 的 标注 语料库 中 。 如 
果 一 人 将 某 个 用 户 认 定 为 理性 投资 者 ,而 男 一 人 有 不 
同 的 标注 结果 , 则 将 该 用 户 数据 从 标注 语料库 中 剔除 ， 
这 类 用 户 在 2 500 条 数据 中 占 比 15.4% (391 A) X 
于 标注 不 一 致 ( 即 一 人 标注 为 理性 投资 者 ,而 另 一 人 标 
注 为 噪声 投资 者 ) 的 情况 ,尝试 引入 更 多 的 标注 者 ,但 
并 不 能 有 效 地 解决 歧义 问题 。 通 过 对 原始 语 料 进行 观 
察 ,发现 这 些 用 户 的 评论 和 行为 通常 具备 理性 和 噪声 
投资 者 的 双重 特点 ,标注 者 对 此 很 难得 到 一 致 性 的 判 
断 。 鉴 于 此 ,为 保证 测试 数据 的 有 效 性 ,将 人 工 标注 不 
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一 致 的 数据 从 标注 语料库 中 剔除 。 
本 文 所 获取 的 标注 语料库 呈现 高 度 非 均衡 性 ,在 
取得 一 致 性 标注 的 2 109 条 数据 中 ,理性 投资 者 为 158 
个 , 占 比 7. 49% ; 噪声 投资 者 为 1 951 个 , 占 比 
92.5196 。 在 标注 过 程 中 ,我 们 发 现 ,有 些 用 户 在 不 同 
支 股票 下 的 论坛 中 发 布 几乎 完全 相同 的 帖子 ,或 每 
个 发 帖 内 容 都 不 是 一 句 完整 的 话 ,帖子 内 容 并 无 参 
考 意义 ;还 有 一 些 用 户 的 发 帖 内 容 多 为 抱怨 提问、 
表情 ,甚至 辱骂 ,明显 受到 情绪 因素 影响 。 在 上 述 情 
况 下 ,标注 者 更 倾向 于 将 其 标注 为 噪声 投资 者 。 相 
反 ,在 另外 一 些 情况 下 ,发 帖 内 容 往往 带 有 较 少 或 几 
乎 没有 情感 因素 ,其 发 帖 及 评论 内 容 偏向 于 立足 于 
实际 的 理性 的 客观 分 析 , 标 注 者 更 倾向 于 将 其 标注 
为 理性 投资 者 。 
.一 从 方法 角度 来 看 ,上 述 经 验 标准 隶属 于 基于 规则 
研究 方法 ,准确 度 高 ,但 较 多 地 依赖 于 人 工 判断 ;本 


关 忆 提出 的 行为 - 内 容 融 合 模型 隶属 于 统计 机 器 学 习 


方 消 , 不 依赖 于 人 工 制定 的 规则 。 鉴 于 此 ,本文 未 将 人 
长 杨 注 的 经 验 规则 直接 采纳 入 算法 当中 ,而 是 通过 经 


法 在 噪声 投资 者 识别 中 的 效果 。 
CD 基线 方法 

“本 文 使 用 了 6 种 基线 方法 ,分 别 是 :SVM'” 朴素 
RUE X RER KNN? ANN 以 及 逻辑 回 
IPE, REAA 6 种 基线 方法 对 自选 股 数 量 、 粉 
Hag MITT uie ^g 8 个 特征 构建 分 类 器 模型 。 
413E 评价 指标 

CO 本 文选 用 Fl 值 作为 实验 的 主要 评价 指标 。F1 值 
是 统计 学 中 用 来 衡量 二 分 类 模型 精确 度 的 一 种 指标 ， 
同时 兼顾 了 分 类 模型 的 准确 率 和 召回 率 。 当 准确 率 与 
召回 率 两 个 指标 发 生 冲 突 时 ,很 难 在 模型 之 间 进 行 比 
较 ,此 时 则 需要 用 到 F1 值 。 

除 此 之 外 ,本 文 还 用 到 了 F, 分 数 ,的 物理 意义 
就 是 将 准确 率 和 召回 率 这 两 个 分 值 合并 为 一 个 分 值 ， 
在 合并 的 过 程 中 ,召回 率 的 权重 是 准确 率 的 B fits F, 
分 数 认为 召回 率 和 准确 率 同等 重要 , ,分数 认为 召回 
率 的 重要 程度 是 准确 率 的 2 倍 。 

在 本 实验 中 ,从 标注 好 的 理性 投资 者 (噪声 投 次 
者 ) 中 尽 可 能 多 地 识别 出 理性 投资 者 (噪音 投资 者 ) 是 
本 文 实验 的 主要 训练 目标 ,从 这 个 意义 上 讲 ,召回 率 的 
重要 性 高 于 准确 率 。 为 了 突出 召回 率 的 重要 性 , 本文 
增加 F2 值 作为 评价 指标 。 
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5 ”实验 结果 与 讨论 


5.1 频率 分 布 统计 
本 文 对 收集 到 的 8 种 行为 特征 (自选 股 数 量 ,关注 


量 , 粉 丝 量 、 影 响 力 ` 吧 龄 .总 访问 量 、 发 帖 量 和 回复 
量 ) ,利用 标注 数据 集 进行 频率 分 布 统计 分 析 。 

从 评论 量 来 看 ,如 图 3 所 示 ,10.24% 的 用 户 完全 
没有 过 评论 行为 ,43.80% 的 用 户 评论 量 集中 在 0 到 50 
之 间 , 有 19 位 用 户 评论 量 超过 500 条 。 通 过 对 标注 数 
据 进行 观察 ,我 们 发 现 ,理性 投资 者 在 平均 评论 数量 上 
(81 条 ) 高 于 噪音 投资 者 (60 条 ) 。 通 过 对 理性 投资 者 
和 噪音 投资 者 评论 内 容 进行 对 比 , 发 现 理性 投资 者 对 
于 他 人 的 发 帖 通常 是 较为 理性 的 赞成 或 反对 ;对 于 品 
音 评论 者 而 言 , 其 评论 内 容 通常 毫 无 依据 ,逻辑 性 较 
差 。 


43.8096 
ren ams 
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评论 量 


3 评论 量 频率 统计 


在 发 帖 量 方面 ,如 图 4 所 示 ,53.46 用 户 的 发 帖 
量 集中 在 10 到 500 之 间 , 仅 有 一 位 用 户 累 计 发 帖 量 超 
过 40 万 条 。 通 过 对 标注 数据 进行 观察 ,发 现 理 性 投资 
者 在 发 帖 平均 数量 上 (855 条 ) 高 于 噪音 投资 者 (164 
条 ) 。 通 过 对 理性 投资 者 和 噪音 投资 者 发 帖 内 容 进 行 
对 比 ,发 现 对 于 理性 投资 者 ,其 发 帖 内 容 更 具有 人 金融 领 
域 的 专业 性 以 及 参考 价值 ;对 于 噪音 评论 者 而 言 ,其 发 
帖 内 容 (无 论 是 自身 发 帖 , 还 是 对 他 人 ) 通 常 专业 性 较 
弱 , 并 且 更 倾向 于 较为 夸张 的 辱 驾 和 情绪 宣泄 。 
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4 主 贴 量 频率 统计 


关注 量 与 粉丝 量 可 以 作为 一 组 相对 指标 。 图 5 是 
关注 量 频率 统计 直方 图 ,可 以 看 出 ,44.24% 的 用 户 没 
有 关注 任何 人 ,97. 8196 的 用 户 关注 量 不 超过 50 , 仅 
有 一 位 用 户 关 注 量 超过 500。 通 过 对 标注 数据 进行 
观察 ,发 现 理性 投资 者 在 平均 关注 量 (5 A) ERFIR 
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声 投 资 者 (7 人 ) 。 这 说 明理 性 投资 者 对 外 部 不 确定 
性 信息 的 依赖 性 更 小 ,没有 过 多 关注 噪声 投资 者 的 
言论 ,理性 投资 者 的 决策 行为 主要 受 市 场 等 客观 因 
素 影 响 。 
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图 5 关注 量 频率 统计 


图 6 为 粉丝 量 频率 统计 直方 图 ,与 关注 量 呈 现 出 


相似 的 分 布 结果 :43. 77% 的 用 户 完全 没有 粉丝 ， 
85. 759b 的 用 户 粉 丝 量 不 超过 50 人 , 仅 一 位 用 户 拥有 
百 源 粉丝 (官方 大 V) 。 通 过 对 标注 数据 进行 观察 ,发 
理性 投资 者 在 平均 粉丝 量 上 (13 038 人 ) 远 高 于 品 
资 者 (232 人 ) 。 这 与 常理 相 吻 合 , 即 : 由 于 理性 投 
移 更 具有 人 金融 领域 的 专业 性 ,其 发 帖 内 容 更 具 参 考 
因此 更 能 得 到 其 他 用 户 的 认可 ,从 而 吸引 到 更 多 


R1 6 种 基线 方法 的 FI 值 结果 展示 


算法 P R F1 F, 
NB 3.75% 27.27% 6.59% 12. 10% 
DT T1. 7896 42. 4296 54. 90% 46. 66% 

SVM 83.3396 30. 3096 44. 44% 34. 7296 
KNN 100. 00% 9. 0996 16. 6796 11.11% 

ANN 66. 67% 36. 36% 47. 0696 40. 00% 
LR 46. 00% 51. 00% 49. 0096 49. 9196 


由 表 1 可 以 看 出 ,在 6 种 基线 方法 中 ,就 准确 度 而 
言 ,KNN 算法 取得 了 最 好 的 效果 (100% ) , 排 在 其 后 的 
依次 为 SVM(83.33% ) 和 DT (77. 7896 ) ;就 召回 率 而 
言 ,LR 取得 了 最 好 的 效果 (51% ) , 排 在 其 后 的 依次 为 
DT(42. 4296 ) 和 ANN(36.36% ) ;就 Fl 值 来 看 ,决策 树 
取得 了 最 优 结果 (54. 90% ) , 排 在 其 后 的 依次 为 LR 
(49.0096 ) 和 SVM (47.0696 ) 。 考 虑 到 召回 率 重 要 性 
高 于 准确 率 ,对 F2 值 进行 了 重点 考察 。 表 2 可 以 看 
出 ,LR 取得 了 最 高 的 了 2 值 ,达到 49.91% ,高 于 DT( 领 
先 3. 25%)、ANN (领先 9. 91%) 以 及 SVM (领先 
15.19% ) ,观察 实验 结果 可 以 发 现 ,在 基于 行为 特征 的 
噪声 投资 者 识别 中 ,LR .DT 和 KNN 这 3 种 基线 方法 取 
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图 6 粉丝 量 频 率 统计 


-对 比 图 5 与 图 6 的 分 析 结 果 ,发 现 理 性 投资 者 有 
ATE BI ,粉丝 量 高 的 特征 ;噪声 投资 者 与 之 相反 。 
将 平均 粉丝 量 与 平均 关注 量 的 比值 作为 闵 值 ,在 标注 
数据 集中 ,发 现 , 在 用 户 的 粉丝 量 与 关注 量 的 比值 低 于 
33 时 ,用户 是 噪声 投资 者 的 概率 显著 高 于 理性 投资 
者 ;在 用 户 的 粉丝 量 与 关注 量 的 比值 高 于 2 607 时 ,用 
户 是 理性 投资 者 的 概率 显著 高 于 噪声 投资 者 。 
5.2 ”基于 行为 特征 的 噪声 投资 者 识别 结果 

将 人 工 标注 的 数据 集 按 3:1 的 比例 划分 训练 集 与 
测试 集 , 分 别 运 用 支持 向 量 机 模型 ( support vector ma- 
chinese, SVM) .朴素 贝 叶 斯 (Naive Bayes, NB) .决策 
树 (decision tree，DT)、K 邻近 算法 (K nearest neigh- 
bours, KNN) 、 人 工 神经 网 络 (artificial neural network , 
ANN) UN H [8] (logistic regression, LR)6 种 基线 
方法 针对 8 个 行为 特征 构建 二 分 类 器 ,得 到 如 表 1 所 
示 的 了 上 值 : 


得 相对 较 优 的 综合 效果 。 

鉴于 DT 在 基线 方法 中 取得 了 相对 较 优 的 综合 结 
果 , 且 相对 其 他 算法 而 言 ,具有 更 强 的 解释 性 ,本 文 尝 
试 使 用 DT 来 进一步 刻画 噪声 投资 者 的 行为 ,其 结果 
如 表 2 Bron: 
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A 
Al :理性 投资 者 v v v 
A2 :噪声 投资 者 v v v 


由 表 2 可 以 看 出 ,噪声 投资 者 行为 刻画 因素 主要 
分 为 4 种 , 即 粉 丝 量 .评论 量 自选 股 数量 和 主 贴 量 ( 另 
外 4 种 行为 特征 指标 由 于 在 实验 表现 中 不 够 显著 ,未 
作为 刻画 指标 ) 。 对 于 噪声 投资 者 而 言 ,其 行为 画像 倾 
向 于 以 下 3 种 情况 :中 粉丝 量 小 于 20; 思 粉丝 量 位 于 
[20 ,700) 区 间 且 评论 量 不 小 于 72 ,同时 自选 股 数量 不 
小 于 13;(3 粉 丝 量 位 于 [20,700) 区 间 且 评论 量 不 小 于 
72 ,同时 自选 股 数量 小 于 13 , 且 主 贴 量 不 小 于 580。 对 
于 理性 投资 者 而 言 ,其 行为 画像 倾向 于 以 下 3 种 情况 : 
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CDL left P [20 ,700) 区 间 且 评论 量 不 小 于 72 ,同时 
自选 股 数量 小 于 13, 且 主 贴 量 小 于 580;@ 粉 丝 量 大 于 
700 且 评 论 量 不 小 于 72;@ 粉 丝 量 大 于 20 且 评 论 量 小 
于 72。 
5.3 ”基于 BCCM 的 噪声 投资 者 识别 结果 

由 于 内 容 特征 较 能 反映 出 用 户 的 情感 信息 , 字 里 
行 间 隐 含 着 其 理性 程度 ,使 用 深度 用 户 表示 学 习 方法 
获取 了 用 户 表示 向 量 ,利用 K-means 算法 对 用 户 的 发 
帖 及 评论 的 文本 内 容 进 行 聚 类 。 将 文本 聚 类 结果 加 入 
到 基线 模型 中 , 即 选取 9 个 特征 (自选 股 数量 ,关注 量 、 
粉丝 量 .影响 力 , 吧 龄 ,总 访问 量 、 主 贴 量 .评论 量 和 聚 
类 编号 ) 对 上 述 基线 方法 重新 构建 二 分 类 器 ( 即 NB + 
CDT+C、 SVM +C、KNN +C、ANN « C) ,并 与 BCCM 
模型 进行 对 比 ,得 到 如 表 3 所 示 的 实验 结 
P 表 3 基线 方法 加 入 文本 特征 后 的 下 值 比较 


— 


P R F1 F2 
1.35% 10.71% 2.39% 4.4896 
60. 00% 32.1446 41. 8696 35.4396 
83. 33% 17. 8696 29.4196 21.19% 
50. 00% 7.14% 12. 50% 8.6296 
60. 00% 42. 8696 50. 00% 45. 4596 
71.0096 74. 00% 72.4796 73. 3896 


CN 由 表 3 可 以 看 出 ,在 召回 率 方面 ,BCCM 模型 取得 
最 涡 值 (74. 00% ) , 远 高 于 ANN + C 方法 (领先 
3b4496 ) DT + C 方法 (领先 41.86% ) 以 及 SVM +C 
Jj Cic 56. 14% ) ;在 Fl 值 方面 ,BCCM 模型 取得 最 
Bid (72. 47% ) , 远 高 于 ANN + C 方法 (领先 
225 和 7% ) DT + C 方法 (领先 30.61% ) 以 及 SVM + C 
方法 (领先 43.06% ) ;在 召回 率 方面 ,BCCM 模型 取得 
最 高 值 (74. 00% ) , 远 高 于 ANN + C 方法 (领先 
31.1496 ) DT + C 方法 (领先 41.86% ) 以 及 SVM +C 
方法 (领先 17.86% ) ; 在 准确 率 方面 ,BCCM 模型 取 值 
为 71% , 低 于 SVM + C 方法 , 排 在 第 二 。 综 合 4 项 指标 
来 看 ,本 文 所 提出 的 BCCM 模型 取得 了 最 好 的 综合 效 
果 。 这 表明 ,通过 深度 表示 学 习 加 入 用 户 内 容 特征 ,在 
样本 非 均衡 的 测试 集合 中 ,能 够 有 效 提升 噪声 投资 者 
(以 及 理性 投资 者 ) 识别 的 效果 。 

5.4 ”扩展 实验 结果 

在 5.3 节 中 ,所 使 用 的 标注 数据 集 存在 样本 不 均 
衡 的 情况 (噪声 投资 者 数量 达到 了 92. 5196 之 多 ,而 理 
性 投资 者 仅 有 7.49% ) 。 为 了 进一步 验证 在 均衡 数据 
集中 ,BCCM 模型 相对 于 其 他 基线 模型 的 效果 优 劣 ,我 
们 采用 过 采样 ( 欠 采 样 ) 方法。 具体 步 又 为 ,将 2 109 
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条 数据 按照 3:1 的 比例 划分 训练 集 与 测试 集 , 在 划分 
好 的 训练 集中 随机 放 回 抽样 1 500 条 数据 作为 新 的 训 
练 集 ; 同 理 , 在 测试 集中 随机 放 回 抽样 500 条 数据 作为 
新 的 测试 集 ,从 而 得 到 了 一 个 较为 均衡 的 数据 集 。 在 
采样 过 程 中 ,新 的 训练 集 和 测试 集中 的 数据 可 能 重复 
出 现 。 

利用 重新 采样 过 后 的 均衡 标注 数据 集 , 我 们 重复 
了 5.2 节 实 验 ,得 到 实验 结果 ( 见 表 4)。 表 4 中 ,字母 
0 代表 oversampling, 即 过 采样 。 对 比 表 1 和 表 4 可 以 
发 现 ,在 采取 过 采样 措施 之 后 ,各 种 基线 方法 的 Fl 值 
得 到 了 较为 显著 的 提升 ,原本 效果 最 差 的 朴素 贝 叶 其 
的 Fl 值 和 F2 值 从 10% 左 右 提升 到 30% 以 上 ;决策 
树 .支持 向 量 机 、K 邻近 及 人 工 神经 网 络 4 种 方法 的 本 
值 提升 至 80% 左右 ;各 种 方法 的 Fl 最 高 值 从 原来 的 
54.996 ( 见 表 1) ,提升 到 82. 0996 ( 见 表 4)。 这 表明 ， 
过 采样 方法 对 于 提升 各 种 基线 方法 的 效果 具有 显著 作 
Ho MEZ, RA 中 的 各 种 基线 方法 在 均衡 数据 集中 
具有 更 好 的 识别 效果 。 

R4 ”运用 过 采样 方法 后 的 基线 方法 结果 


Cm 


算法 P R Fl F2 
NB «0 26. 63% 42. 6196 32. 78% 38. 04% 
DT «0 89. 56% 70. 8796 79.1396 73.9696 
SVM +0 87.9496 76. 09% 81. 5996 78. 20% 
KNN +0 85.29% 75.65% 80. 18% 77.40% 
ANN +0 85. 7896 78.7095 82. 09% 80. 02% 
LR «0 74. 00% 71.0096 76. 0096 76. 3896 


利用 重新 采样 过 后 的 均衡 标注 数据 集 ,我 们 重复 
了 5.3 节 实 验 ,得 到 实验 结果 ( 见 表 5)。 表 5 中 ,字母 
O 代表 oversampling, 即 过 采样 ;字母 C 代表 content, BH 
内 容 特征 。 由 表 5 可 以 看 出 ,在 采取 过 采样 措施 以 后 ， 
在 召回 率 方面 ,BCCM + 0 模型 取得 最 高 值 (81. 0096 ) ， 
远 高 于 KNN +C+0 方 法 (领先 9.70% ) . ANN £C € O 
方法 (领先 10. 5796) 以 及 SVM +C+0 方 法 (领先 
13.6196) ;在 Fl 值 方面 , BCCM 模型 取得 最 高 值 
(79.4796) ,高 于 SVM +C +0 Jr iE ( 9i 75 3. 8696) 、 
ANN +C+0 方 法 (领先 4.64% ) 以 及 KNN 4 C € O0 Jr 
法 (领先 6. 26% ) ;在 召回 率 方面 ,BCCM 模型 取得 最 
高 值 (80. 3896) , 高 于 ANN + C «€ O Jr ik (Ai Jo 
8.25% ) KNN +C+0 方 法 (领先 8.32% ) 以 及 SVM+ 
C+0 方 法 (领先 9.93% ) ;在 准确 率 方面 ,BCCM 模型 
取 值 为 78% ,高 于 NB+C+0 以 及 KNN+C+0 方 法 。 
对 比 表 3 HRS 可 以 看 出 ,在 采取 过 采样 措施 以 后 , 尽 
管 与 其 他 基线 模型 的 效果 领先 程度 有 所 缩 窄 ,本 文 所 
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提出 的 BCCM 模型 仍然 取得 了 最 好 的 综合 效果 。 这 表 
H ,通过 深度 表示 学 习 加 入 用 户 内 容 特征 ,在 样本 均衡 
的 测试 集合 中 ,能 够 有 效 提升 噪声 投资 者 (以 及 理性 投 
资 者 ) 识别 的 效果 。 

表 5 运用 过 采样 方法 后 的 结果 对 比 


算法 P R FI F2 
NB+C+0 27.718% 32.61% 30. 00% 31.51% 
DT+C+0 84. 57% 59,57% 69. 90% 63.31% 
SVM +C+0 86. 111% 67.39% 75.6196 70.45% 
KNN +C+0 75.23% 71.30% 73.2196 72.0696 
ANN - C «0 79. 8096 70. 4396 74. 8396 72.13% 
BCCM +0 78. 00% 81. 00% 79.47% 80. 38% 


5.5 讨论 

__ 从 各 种 算法 的 总 体 实验 结果 对 比 来 看 ,在 5.2 至 
5.4 池 实验 中 ,BCCM 模型 显示 了 较 高 的 稳定 性 ,该 模 
型 能 和 较 好 地 实现 噪声 投资 者 (理性 投资 者 ) 识 别 ,其 实 
优 于 传统 的 基线 方法 。 该 模型 的 提出 在 一 定 程 
让 BB 推进 了 噪声 投资 者 的 自动 化 有 效 识别 ,通过 区 分 
跟 江 投资 者 与 理性 投资 者 并 吻 除 掉 噪声 投资 者 的 噪声 
多 可 以 为 决策 者 提供 引导 性 建议 ,具有 一 定 的 可 靠 


资 者 。 通 过 对 原始 语 料 进 行 比 对 ,该 用 户 所 发 帖子 中 
存在 较 多 的 广告 ,但 其 内 容 相对 专业 规范 , 且 粉 丝 量 等 
行为 特征 与 理性 投资 者 相符 ,因此 模型 将 其 误 判 为 理 
性 投资 者 。 

从 算法 的 推广 性 来 看 ,本 文中 的 BCCM 模型 基于 
东方 财富 网 对 噪声 投资 者 及 理性 投资 者 的 识别 而 提 
出 。 模 型 并 非 局 限 在 噪声 投资 者 识别 这 一 领域 ,本 文 
所 提出 的 行为 与 内 容 结合 的 思路 ,可 推广 到 其 他 相关 
社交 媒体 的 用 户 画 像 领域 。 例 如 ,采用 行为 与 内 容 结 
合 模 型 ,将 用 户 的 产品 评价 文本 用 于 深度 用 户 表 示 学 
习 模 型 ,结合 发 帖 量 、 转 发 率 \ 注 册 时 间 间 隔 等 行为 指 
标 ,能 够 刻画 出 该 用 户 属于 真实 评论 者 或 是 虚假 评论 
者 ;将 用 户 购 买 商品 后 的 评价 文本 用 于 深度 用 户 表 示 
学 习 模 型 ,结合 用 户 的 月 均 购买 量 、 好 评 率 、 差 评 率 等 
指标 及 其 与 人 均 水 平 的 比较 ,能 够 刻画 出 该 用 户 属于 
理性 消费 者 还 是 非 理性 消费 者 ;将 微 博 用 户 的 博文 用 
于 深度 用 户 表 示 学 习 模 型 ,结合 用 户 的 粉丝 量 、 关 注 
量 日 均 发 博 数量 等 行为 指标 ,对 用 户 进行 用 户 画像 ， 
能 够 刻画 出 其 是 否 为 僵尸 粉 。 此 外 ,本 文 研究 成 果 对 
于 大 众 情感 是 否 能 影响 股价 的 相关 研究 具有 一 定 的 现 


性 届 参 考 价值 。 值 得 说 明 的 是 ,BCCM 模型 利用 未 标 
NEBİ (unlabeled data) 进行 机 器 学 习 ,相对 于 传统 的 
蛤 本 式 机 器 学 习 方法 ,能 够 节省 繁重 的 人 工 标注 任务 ， 
因 通 更 加 适用 于 没有 足够 标注 数据 的 任务 。 另 外 ,在 
BEEM 模型 的 用 户 表 示 学 习 模块 中 ,用 户 向 量 较 好 地 
仿 到 了 小 语 境 中 的 单词 顺序 ,这 点 与 n-gram 模型 广 
IRRE] (n-gram 模型 保留 了 段落 的 大 量 信息 ,包括 单词 
顺序 ) 。 相 对 于 传统 的 n-gram 模型 往往 需要 创建 一 个 
非 锡 高 维 的 表示 ,用 户 表示 模型 能 够 创建 一 个 相对 低 
维 的 表示 ( 例如 文本 为 100 维 ) ,因而 具有 更 好 的 推广 
性 能 。 此 外 ,本 文通 过 识别 来 刻画 噪声 投资 者 行为 , 即 
将 行为 特征 作为 监督 学 习 的 输入 以 训练 分 类 模型 ,分 
类 的 结果 反映 投资 者 的 不 同类 型 ,最 后 根据 分 类 模型 
所 学 习 到 的 规则 来 刻画 噪声 投资 者 。 

从 实验 结果 与 实际 情况 的 比照 来 看 ,BCCM 模型 
在 不 同 的 评价 指标 下 都 得 到 较 好 的 效果 ,在 多 数 情况 
下 能 够 较 好 地 识别 噪声 投资 者 。 实 验 仍 存在 少数 与 实 
际 情况 不 一 致 的 结果 。 例 如 ,ID 为 “ 瞳 eese TI" 的 
用 户 被 人 工 标注 为 理性 投资 者 ,而 实验 结果 将 其 判定 
为 噪声 投资 者 。 通 过 对 原始 语 料 进行 比 对 ,该 用 户 的 
发 帖 或 评论 包含 理性 分 析 的 成 分 ,但 由 于 在 成 文 上 缺 
乏 专 业 性 , 且 语 言 表达 规范 性 较 弱 ,因此 被 模型 误 判 为 
噪声 投资 者 。 再 如 ,ID 为 “mk xxxxxx777” 的 用 户 被 人 
工 标注 为 噪声 投资 者 ,而 实验 结果 将 其 判定 为 理性 投 


实意 义 。 例 如 ,可 以 利用 本 文 的 实验 结果 ,在 提取 基于 
评论 内 容 所 反映 的 情感 特征 时 ,去 掉 品 音 投资 者 的 情 
感 ,或 者 去 掉 理 性 投资 者 的 情感 ,以 检验 哪些 群体 更 有 
可 能 对 股价 产生 影响 。 

本 文 实验 存在 以 下 局 限 性 :中 由 于 标注 人 员 有 限 ， 
本 文人 工 标注 的 数据 仅 有 2 100 多 条 ,数据 量 不 够 充 
分 ,后 续 将 标注 更 多 的 数据 以 增加 论文 的 说 服 性 ;@C 在 
人 工 标注 的 过 程 中 ,存在 一 些 不 确定 性 误差 ,有 些 用 户 
确实 难以 判定 是 否 为 理性 投资 者 ,所 以 尽管 是 多 人 统 
一 的 结果 ,依然 可 能 存在 误 判 的 情况 。 


本 文 以 金融 领域 的 噪声 投资 者 (理性 投资 者 ) MA 
别 这 一 特定 的 用 户 画像 为 研究 任务 ,在 次 度 用 户 表 示 
学 习 以 及 传统 的 机 器 学 习 的 基础 上 ,提出 了 一 种 新 的 
结合 内 容 与 行为 特征 的 噪声 投资 者 识别 模型 , 即 BC- 
CM 模型 。 为 了 验证 该 模型 的 有 效 性 ,本 文 在 原始 非 均 
衡 标注 集 和 采样 后 的 均衡 标注 集 上 进行 了 多 组 对 比 实 
验 。 对 比 实验 结果 表明 ,在 非 均 衡 数据 集 上 ,BCCM pi 
型 方法 所 取得 的 R FL 和 F2 值 均 远 高 于 传统 的 决策 
树 、 朴 素 贝 叶 斯 .逻辑 回归 Se fS 8] S DLE EI AT 28 77 
法 ;在 均衡 数据 集 上 ,BCCM 模型 方法 优 于 传统 的 基线 
分 类 方法 。 综 合 各 项 实验 结果 表明 ,在 噪声 投资 者 识 
别 这 一 特定 用 户 画 像 研究 任务 中 ,通过 利用 深度 用 户 
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表示 学 习 引 入 文本 内 容 特 征 , 能 够 显著 提升 用 户 画 像 
的 各 种 评价 指标 。 

在 后 续 研究 中 ,将 加 入 社交 网 络 中 的 节点 与 信息 
传输 中 的 特征 ,例如 股民 之 间 的 互相 评论 .互相 关注 
等 ,来 进一步 优化 模型 ,以 得 到 更 好 的 用 户 画 像 效 果 ; 
此 外 ,还 会 将 噪声 投资 者 和 理性 投资 者 的 分 类 结果 应 
用 到 股票 预测 中 ,以 进一步 验证 噪声 投资 者 对 于 股价 
波动 的 影响 。 
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Abstract. [ Purpose/significance] To identify and remove online reviews from irrational investors , enhance the pro- 


fessional degree and quality of comments , and to promote rational investment, this article takes identifying whether the us- 


ers on the Guba website belong to the noise investors as an example, and carries out a user profiling study. 


[ Method/ 


process] Deep user representation learning method was used to learn text information such as users posts, then a behavior 


and content combined model was proposed with respect to behavior characteristics such as fans number, influence, bar 


age, post number and so on, and an empirical and comparative study was done on the annotated data set. | Result/con- 


clusion | Experiment result showed that the BCCM model got the F1 score of 79. 4796 , which is superior to Decision Tree 
model (69. 9096 ) , SVM model(75. 6196 ) , KNN model(73. 2196 ) and ANN model( 74.8346 ). In the specific user pro- 


filing task of identifying noise traders, by using deep user representation learning method to obtain text content characteris- 


tics, the various evaluation metrics of use profiling can be remarkably improved. 
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